LOCAL AND GLOBAL FEATURES FUSION FOR SOUND EVENT DETECTION WITH HETEROGENEOUS TRAINING DATASET AND POTENTIALLY MISSING LABELS
https://dcase.community/documents/challenge2024/technical_reports/DCASE2024_Zhang_7_t4.pdf
ひとまず2節を見ている
1節は飛ばした
CNNとTransformerの中間層の重み?を融合し,特徴抽出をより良くする
従来手法は単純すぎると言っている
これは完全に学習戦略では
もう一つのMean-Teacherをより異質性に強くした手法も学習戦略だと思う > Confident Mean Teacher
モデルアーキテクチャは中間層の特徴量を交換する以外は一緒?
特に工夫はないのかな
1節に色々良さげなリソースが書いてある
モデルとか学習手法とか
後でいいか
? cross-attention mechanismが気になる
attnetion機構の一部である cross-attentionのことを言っているのか?